Molmo,开源多模态模型正在发力!
来自主题: AI资讯
6734 点击 2024-10-05 13:30
Molmo,开源多模态模型正在发力!
在GPT-4发布后14.5个月里,LLM领域似乎已经没什么进步了?近日,马库斯的一句话引发了全网论战。大模型烧钱却不赚钱,搞AI的公司表示:难办!
过去十年间,基于随机梯度下降(SGD)的深度学习模型在许多领域都取得了极大的成功。与此同时各式各样的 SGD 替代品也如雨后春笋般涌现。在这些众多替代品中,Adam 及其变种最受追捧。无论是 SGD,还是 Adam,亦或是其他优化器,最核心的超参数非 Learning rate 莫属。因此如何调整好 Leanring rate 是炼丹师们从一开始就必学的技能。
一般而言,训练神经网络耗费的计算量越大,其性能就越好。在扩大计算规模时,必须要做个决定:是增多模型参数量还是提升数据集大小 —— 必须在固定的计算预算下权衡此两项因素。
Scaling law发展到最后,可能每个人都站在一个数据孤岛上。
4月24日,商汤集团在港交所暂停交易,暂停交易前上涨31.15%。商汤集团回应,“昨日日日新大模型5.0发布会广受好评,受到市场极大关注;依照上市规则及港交所建议,公司将进一步刊发相关公告。”